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(57) Abstract 



The invention relates to a method for storing search parameters of an 
image sequence and accessing an image that is a true subset of the image 
sequence. Said image sequence contains audio information. In order to be able 
to selectively search within an image sequence containing audio information, 
search characteristics are determined from the audio information by means of 
voice recognition. A concept which is to be searched can be inputted by 
means of spoken language. Search characteristics are either single words of 
a predetermined language or phonemes/phoneme combinations. The inventive 
method thus enables image sequences to be automatically indexed with their 
audio information. 

(57) Zusanunenfassung 

Verfahren zum Abspeichem von Suchmerkmalen einer Bildsequenz, die 
Toninformation umfaBt, und Zugriff auf eine Bildfolge, die eine echte Teilmenge 
der Bildsequenz ist. Urn in einer Bildsequenz, die Toninformation umfaBt, 
gezielt suchen zu kOnnen, werden Suchmerkmale aus der Toninformation 
mittels eines Spracherkenners ermittelt. Auch die Eingabe eines zu suchenden 
Begriffs kann uber gesprochene Sprache erfolgen. Suchmerkmale sind alternativ 
einzelne Wdrte einer vorgegeben Sprache oder Phoneme/Phonemkombinationen. 
Mit diesem Verfahren kGnnen Bildsequenzen anhand ihrer Toninformation 
automatisch indiziert werden. 
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Beschreibung 

Verfahren zum Abspeichern von Suchmerkmalen einer Bildsequenz 
und Zugriff auf eine Bildfolge in der Bildsequenz 

5 

Die Erfindung betrifft ein Verfahren zum Abspeichern von 
Suchmerkmalen einer Bildsequenz, die Toninf ormation umfaSt, 
und einen Zugriff auf eine Bildfolge innerhalb der 
Bildsequenz anhand der Suchmerkmale . 

10 

Eine Bildsequenz ist eine Reihe zusammenhangender Bilder mit 
entsprechender Toninf ormation . Eine Bildfolg e bezeichnet eine 
echte Teilmenge der Bildsequenz. Vorcrebbarg Tnf rvrmaM r» n i st 
eine in den Suchmerkmalen zu suchende Information. 

15 

Vielfaltige audiovisuelle Information (Bildsequenzen) wird 
heute in digitalisierter Form an verschiedenen Orten 
gespeichert. Urn diese audiovisuelle Information zu nutzen, 
ist es notig, die interessierenden Daten zunachst einmal 
20 aufzufinden. 

Ein Spracherkennungssystem ist aus [1] bekannt . 

Die MPEG-Standards zur Bildkompression sind dem Fachmann 
25 hinlanglich bekannt. 

Die Aufgabe der Erfindung besteht darin, aus einer 
Bildsequenz Suchmerkmale zu bestimmen und abzuspeichern und 
somit eine Zugriff auf interessierende Daten zu 
3 0 gewahrleisten. 

Diese Aufgabe wird gemaS den Merkmalen der Patentanspruche 1 
und 9 gelost. 

35 Es wird ein Verfahren zum Abspeichern von Suchmerkmalen einer 
Bildsequenz, die Toninf ormation umfa&t, dargestellt, bei dem 
die Suchmerkmale aus der Toninf ormation der Bildsequenz 
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ermittelt und abgespeichert werden. Weiterhin gibt eine 
vorgegebene Information an, welches Suchmerkmal in der 
Bildsequenz gefunden werden soil. Wird eine Ubereinstimmung 
zwischen der vorgegebenen Information und den Suchmerkmalen 
der Bildsequenz ermittelt, so wird zu der Bildfolge, die mit 
dem gefundenen Suchmerkmal verkniipft ist, gesprungen. 
Ansonsten, wird also keine Ubereinstimmung zwischen der 
vorgegebenen Information und den Suchmerkmalen ermittelt, 
wird dem Benutzer eine entsprechende Riickmeldung angezeigt. 

Befinden sich innerhalb der Bildsequenz mehrere Suchmerkmale, 
die auf die vorgegebene Information passen, so konnen die 
jeweilig verknupften Bildfolgen einzeln der Reihe nach 
angesprungen werden oder eine Auswahl mit zusatzlichen zu den 
jeweiligen Bildfolgen gehorenden Suchmerkmalen in einer 
Ubersicht ausgegeben werden. Hierzu sind verschiedene 
Moglichkeiten denkbar, die allgemein aus auf Datenbanken 
anwendbaren Suchtechniken bekannt sind. 

Daraus ergibt sich der Vorteil einer automatisch fur die 
jeweilige Bildsequenz result ierenden Menge von Suchmerkmalen, 
die einfach zu ermitteln sind und mit der Bildsequenz oder 
getrennt von der Bildsequenz in einer Datenbank abgespeichert 
werden konnen. 

Eine Weiterbildung der Erfindung besteht darin, die 
Toninf ormation mittels eines Spracherkennungssystems 
auszuwerten im Hinblick auf vorgegebene Wortarten oder 
vorgegebene Worte. So kann eine vorgegebene Wortart alle 
Substantive umfassen, die mit der Bildsequenz oder getrennt 
von der Bildsequenz als Suchmerkmale abgespeichert werden. 

Eine andere Weiterbildung besteht darin, die vorgegebene 
Information mittels gesprochener Sprache einzugeben. Hierzu 
kann vorteilhaft der Spracherkenner , der fur die Erkennung 
der Suchmerkmale eingesetzt worden ist, verwendet werden. Die 
Eingabe von naturlich gesprochener Sprache hat u.a. den 



WO 99/05681 



PCT/DE98/01985 



3 

Vorteil, daE ohne eine zur Verfugung stehende Tastatur oder 
andere Instrumentierung vollig ohne Benutzung z.B. der Hande 
die vorgegebene Information eingegeben werden kann . 
Beispielsweise' beim Fvihren eines Kraf t f ahrzeugs ist eine 
Eingabe, bei der der Blick nicht vom Verkehrsgeschehen 
abgewandt werden muS, von Vorteil. 

Auch ist es eine mogliche Weiterbildung , aus den mittels des 
Spracherkenners erkannten Suchmerkmalen eine Liste 
anzubieten, die der Benutzer sowohl zur einfachen Auswahl 
eines Suchmerkmals , das er nicht aktiv kennen muS, benutzen 
kann. Ferner ist es moglich, eine Liste von beispielsweise 
Substantiven sortiert nach der Haufigkeit anzubieten, so da£ 
der Benutzer z.B. die aktuellsten Bildfolgen uber die 
Suchmerkmale adressieren kann, wenn die Bildsequenz z.B. 
Nachrichtensendungen umf afit . 

Eine zusatzliche Weiterbildung besteht darin, als 
Suchmerkmale Phoneme und/oder Phonemkombination abzuspeichern 
0 und somit den let z ten Schritt der Spracherkennung , das 

Zuordnen zu real exist ierenden Women, einzusparen. Dadurch 
ergibt sich ein flexibler Einsatz, da nicht fur jede Sprache 
ein eigenes Lexikon mit den jeweiligen Umsetzungen in Phoneme 
und/oder Phonemkombinationen bereitstehen muB. 

5 

Ein anderes Verfahren ermoglicht direkt die Suche nach einer 
vorgegebenen Information innerhalb einer Toninformation 
umfassenden Bildsequenz, wobei die vorgegebene Information in 
der Bildsequenz gesucht wird und eine Bildfolge ab dem Bild 
0 angezeigt wird, zu dessen Toninformation die vorgegebene 
Information zugeordnet werden kann. Dadurch konnen 
vorteilhaft, ohne Aufwand fur Abspeichern und Verwalten von 
Suchmerkmalen, einzelne, vorzugsweise kurze, Bildsequenzen 
nach vorgegebener Information abgesucht werden. 
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Eine Weiterbildung besteht darin, mittels eines 
Spracherkennungssystems vorgebbare Worte aus der 
Toninf ormation zu erkennen. 

Die Eingabe der vorgegebenen Information kann durch natiirlich 
gesprochene Sprache erfolgen, die von dem 
Spracherkennungssystem erkannt wird . 

Eine andere Weiterbildung ist die Suche nach einer 
Ubereinstimmung zwischen der vorgegebenen Information und der 
Toninf ormation auf Basis von Phonemen und/oder 
Phonemkombinationen . Dabei ist es ein Vorteil, daS der letzte 
Schritt der Spracherkennung , die Zuordnung einer 
Phonemkombination zu einem Wort, eingespart wird, wobei damit 
keine sprachspezif ischen Worterbucher fur diese Zuordnung im 
Spracherkenner vorhanden sein miissen. Es konnen auf diese 
Weise Laute und Lautkombinationen innerhalb der zu der 
Bildsequenz assoziierten Toninf ormation gefunden werden. 

Weiterbildungen der Erf indung ergeben sich aus den abhangigen 
Anspriichen . 

Anhand der folgenden Figuren werden Ausfuhrungsbeispiele der 
Erf indung naher dargestellt. 

Es zeigen 

Fig.l ein Blockdiagramm, das Schritte zur Durchfiihrung 

eines Verfahrens zum Abspeichern einer Bildsequenz 
und Zugriff auf diese Bildsequenz enthalt, 

Fig. 2 eine Skizze, die eine Bildsequenz zeigt, die 
Bilddaten und Toninf ormation umfa&t, 

Fig. 3 eine Skizze, die eine Moglichkeit zum Abspeichern von 
Suchmerkmalen zeigt, 

Fig . 4 eine Skizze, die eine Aufteilung einer Liste aus 
Suchmerkmalen darstellt , 

Fig. 5 eine Skizze ; die das Zusammenspiel zwischen 

Toninf ormation, Spracherkenner, einem Mikrofon fur 
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zusatzliche Spracheingabe und den Suchmerkmalen 
symbolisch veranschaulicht . 

In Fj.g, 1 ist ein Blockdiagramm dargestellt, das Schritte zur 
Durchfuhrung eines Verfahrens zum Abspeichern einer 
Bildsequenz f die Toninf ormation umfaSt, und einen Zugriff au 
diese Bildsequenz enthalt. 

Dazu werden in einem Schritt 101 Suchmerkmale aus der 
Toninf ormation ermittelt. Dies geschieht mittels eines 
Spracherkenners, der Worte oder Laute aus der Toninf ormation 
erkennt und diese in ihrer Gesamtheit oder nach vorgebbaren 
Merkmalen gefiltert (siehe unten) als Suchmerkmale 
abspeichert . 

Die Suchmerkmale werden in einem Schritt 102 zusammen mit de 
Bildsequenz oder in einer getrennten Datenbank abgespeichert 
Mit Datenbank ist hier eine allgemeine Ansammlung von Daten 
gemeint, die optional mit geeigneten Zugriff smechanismen 
versehen ist. Solche Datenbanken sind z.B. als funktionales 
Prograrnmierinterf ace (z.B. als "application programming 
interface" API) oder als fertige, eigenstandig auf einem 
Rechner laufende Programme dem Fachmann. hin.langl.ich bekannt. 

Uber den Zugriff 103 werden die Suchmerkmale mit einer 
vorgegebenen Information verglichen und, falls eine 
Ubereinstimmung gefunden wird, zu der Bildfolge, die durch 
das iibereinstimmende Suchmerkmal referenziert (mit einem 
Verweis wird auf die Bildfolge gezeigt) wird, gesprungen 
werden kann. Wird keine Ubereinstimmung zwischen der 
vorgegebenen Information und den Suchmerkmalen gefunden, so 
wird vorzugsweise dies dem Benutzer angezeigt. 

In Fig. 2. ist uber den Verlauf einer Zeitachse t eine 
Bildsequenz BS, die Bilddaten BD und Toninf ormation TI 
umfaSt, dargestellt. Innerhalb der Bildsequenz BS ist eine 
Bildfolge BF als Teil der Bildsequenz BS gezeigt. In Fig. 2 
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wird deutlich, date die Bilddaten BD und die Toninf ormation TI 
eine zeitliche Entsprechung aufweisen, also jedem 
Tonausschnitt ein eindeutiger Bildausschnitt und umgekehrt 
zugeordnet werden kann. 

Fig . 3 zeigt die Bildsequenz BS, die mindestens eine 
Kombination aus einem Header H und Bilddaten BD (siehe 
beispielsweise die entsprechende Festlegung im MPEG-Standard: 
GOP = Group of Pictures) umfaSt, der Suchmerkmale M 
beispielhaft vorangestellt worden sind. Ebenso konnen die 
Suchmerkmale M der Bildsequenz BS angehangt oder innerhalb 
der Bildsequenz BS abgespeichert werden. Alternativ dazu ist 
es mdglich, die Suchmerkmale M in einer externen Datenbank 
EDB abzuspeichern und so Suchmerkmale mehrerer Bildsequenzen 
BS in einer Datenbank zu sammeln. In Fig. 3 sind Verweise PTR 
skizziert, die zeigen, da£ zu jedem Suchmerkmal auch ein 
solcher Verweis gehort , der auf ein Bild innerhalb der 
Bildsequenz zeigt und somit eine Bildfolge in der Bildsequenz 
deref erenziert (d.h. die Bildfolge ist durch den Verweis PTR 
adressierbar) . 

Eine Organisation einer Liste von Suchmerkmalen und deren 
Beziehung zu den Bilddaten BD ist in Fig. 4 dargestellt. Es 
gilt wieder der vertikale Verlauf einer Zeitachse t von oben 
nach unten. Die Suchmerkmale M sind in Form einer Liste der 
Bildsequenz BS, die den Header H und die Bilddaten BD 
enthalt, vorangestellt. Die Liste enthalt mehrere 
Suchmerkmale SMI und SM2 . Jedes Suchmerkmal umfaSt jeweils 
eine beschreibende Komponente INF01 und INF02 und jeweils 
einen Verweis (Zeiger, engl . : pointer) PTR1 und PTR2 auf ein 
Bild innerhalb der Bilddaten BD. 

Eine zentrale Komponente in Fig. 5 ist der Spracherkenner SE . 
Dort wird die Toninf ormation TI bearbeitet . 

Eine Moglichkeit ist die Erkennung der in der Toninf ormation 
enthaltenen Sprache mit den die eine jeweiiige Sprache 
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kennzeichnenden Worte. Diese Worte stellen Suchmerkmale SMi 
(i=l, 2, 3, . . ,n) dar, die in die Liste mit Suchmerkmalen LSM 
eingetragen werden. 

Aus der Toninf ormation erkannte Worte konnen der Haufigkeit 
nach sortiert dem Benutzer dargestellt werden, so daS dieser 
eine Auswahlmoglichkeit fur die vorgebbare Information hat. 

Auf Wortebene konnen geeignete Filter nur bestimmte 
Wortarten, z.B. Substantive, zum Abspeichern oder nur 
bestimmte vorgegebene Worte, die in einem 

anwendungsabhangigen Lexikon abgeiegt werden, zulassen. Im 
zweiten Fall kann man gezielt die Toninf ormation nach 
Kategorien einstufen. Jede Kategorie umfaSt ein bestimmtes 
anwendungsabhangiges Lexikon. Ein Beispiel fur ein 
anwendungsabhangiges Lexikon ist ein Sport lexikon mit Worten, 
die in dieser Themenklasse eine Rolle spielen. Die 
Toninf ormation einer Bildsequenz wird auf Ubereinst immungen 
mit in diesem Sportlexikon vorhandenen Worten untersucht. 
Jede Ubereinstimmung fuhrt zu einem Suchmerkmal, also einer 
beschreibenden Komponente INFO und einem Verweis PTR auf das 
Bild, zu dem das jeweilige Wort aufgetreten ist. 

Auch ist es moglich, nicht die der Sprache eigenen Worte als 
Suchmerkmale SMi, sondern Laute, d.h. Phoneme bzw. 
Phonemkombinationen, abzuspeichern und somit von einer 
speziellen Sprache unabhangig zu sein. 

Bei der Suche nach einer Bildfolge wird die vorgegebene 
Information, nach der gesucht werden soil, eingegeben. Diese 
Eingabe kann geschehen auf Wortebene, z.B. mittels einer 
Tastatur oder in Form gesprochener Sprache iiber ein Mikrofon 
MIK. 

Es kann auch direkt uber das Mikrofon MIK oder uber eine 
andere Eingabeeinheit , z.B. eine Tastatur, die vorgegebenen 
Information eingegeben werden una ohne vorhandene 
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abgespeicherte Suchmerkmale SMi die zu der Bildszene 
gehorende Toninf ormation TI nach der vorgegebenen Information 
abgesucht werden (siehe Verkniipfung 501) . Dabei kann auf 
Wortebene einer jeweiligen Sprache oder auf Lautebene 
(Phoneme/Phonemkombinationen) nach der vorgegebenen 
Information innerhalb der Toninf ormation TI gesucht werden. 
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Im Rahmen dieses Dpkuments wurde folgende Verof f entlichung 
zit iert : 

[1] Schukat-Talamazzini : Automatische Spracherkennung, 
Vieweg-Verlag, 1995 . 



WO 99/05681 



PCT/DE98/01985 



10 

Patenta nspriiche 

1. Verfahren zum Abspeichern von Suchmerkmalen einer 
Bildsequenz, die Toninf ormation umfa&t, und Zugriff auf 
eine Bildfolge, die eine echte Teilmenge der Bildsequenz 
ist , 

a) bei dem die Suchmerkmale aus der Toninf ormation 
ermittelt werden, 

b) bei dem die Suchmerkmale abgespeichert werden, 

c) bei dem die Suchmerkmale mit einer vorgegebenen 
Information verglichen werden und, 

falls eine iibereinstimmendes Suchmerkmal gefunden 
wird, zu der Bildfolge, die mit dem ubereinstimmenden 
Suchmerkmal verkniipft ist, gesprungen wird, 

oder eine Ausgabe, daS keine Ubereinstimmung 
zwischen vorgegebener Information mit den 
Suchmerkmalen gefunden worden ist, dargestellt wird. 

2. Verfahren nach Anspruch 1, 

bei dem durch ein Spracherkennungssystem vorgebbare Worte 
aus der Toninf ormation ausgewertet, erkannt und 
abgespeichert werden . 

3. Verfahren nach Anspruch 2, 

bei dem die vorgebbaren Worte Substantive sind. 

4. Verfahren nach einem der Anspriiche 1 bis 3, 

bei dem die Suchmerkmale gemeinsam mit der Bildsequenz 
abgespeichert werden . 

5. Verfahren nach einem der Anspriiche 1 bis 4, 

bei dem die Suchmerkmale in einer von der Bildsequenz 
separaten Datenbank abgespeichert werden. 

6. Verfahren nach einem der Anspriiche 1 bis 5, 

bei dem die vorgegebene Information mittels gesprochener 
Sprache e ingegeben wird . 
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7. Verfahren nach einem der Anspruche 1 bis 6, 

bei dem zu der Bildsequenz eine Liste mit den haufigsten 
aus der Toninf ormat ion zu dieser Bildsequenz erkannten 
Worten angezeigt wird. 

8. Verfahren nach einem der Anspruche 1 bis 7, 
bei dem als Suchmerkmale Phoneme und/oder 
Phonemkombinationen abgespeichert werden . 

9 . Verfahren zur Suche nach einer Sprache umf assenden 
vorgegebenen Information in einer Bildsequenz, die 
Toninf ormation umfaSt, und Zugriff auf eine Bildfolge, 
die eine echte Teilmenge der Bildsequenz ist, 

a) bei dem die vorgegebene Information in der 
Toninf ormation der Bildsequenz gesucht wird, 

b) bei dem die Bildfolge ab einem Bild, dessen 
Toninf ormation die vorgegebene Information enthalt, 
angezeigt wird. 

10. Verfahren nach Anspruch 9, 

bei dem durch ein Spracherkennungssystem vorgebbare Worte 
aus der Toninf ormat ion erkannt werden. 

11. Verfahren nach Anspruch 9 oder 10, 

bei dem die vorgegebene Information mittels gesprochener 
Sprache eingegeben wird und durch das 
Spracherkennungssystem erkannt wird. 

12. Verfahren nach einem der Anspruche 9 bis 11, 
bei dem Phoneme und/oder Phonemkombinationen der 
vorgegebenen Information mit Phonemen und/oder 
Phonemkombinationen aus der Toninf ormation verglichen 
werden . 
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